package com.bugs.reptile;

import com.model.JobInfo;
import us.codecraft.webmagic.selector.Html;

import java.util.List;

/**
 * 爬虫接口, 给不同网站来实现具体功能
 */
public interface Parser {

    /**
     * 是否有下一页
     * @param html
     * @return
     */
    boolean hasNextPage(Html html);

    /**
     * 获取下一个分页的URL
     * @param html
     * @return
     */
    String nextPageUrl(Html html, String url);

    /**
     * 获取详情页面的URL集合
     * @param html
     * @return
     */
    List<String> getDetailUrls(Html html);

    /**
     * 详情页的html转成JobInfo对象
     * @param html
     * @return
     */
    JobInfo convertJobInfo(Html html);

    // 针对中文空格的trim
    default String trim(String str) {
        return str.trim().replaceAll("\\u00A0", "");
    }
}